智能论文笔记

Semi-supervised Stance Detection of Tweets Via Distant Network Supervision

Subhabrata Dutta , Samiya Caur , Soumen Chakrabarti , Tanmoy Chakraborty

分类：自然语言处理 | 机器学习

2022-01-03

通过仇恨语音检测，民意调查预测，参与预测和协调宣传检测，在社交媒体文本中检测和标记姿势强烈激励。今天的最佳神经姿势探测器需要大量的培训数据，这难以策划，鉴于社交媒体文本的快速变化和用户撰写的问题。社交网络的同性恋特性提供了强大的粗粒式用户级姿态信号。但是，发动机级姿势检测的半监督方法未能正确地利用同一性。鉴于此，我们呈现出新的半监督姿态探测器。沙子从很少有标记的推文开始。它构建了促进推文的多个深度特色视图。它还使用来自社交网络的远程监督信号，为组件学习者提供代理丢失信号。我们准备了两个新的推文数据集，其中包括来自两个人口统计数据（美国和印度）的政治上有关的236,000多次推文，以超过87,000名用户，他们的追随者 - 追随图，以及由语言学家注释的超过8,000名推文。 Sands在美国（印度）的数据集上实现了0.55（0.49）的宏观F1得分，表现出17个基线（包括沙子的变体），特别是对于少数群体立场标签和嘈杂的文本。砂岩的许多消融实验解开了文本和网络传播的姿态信号的动态。

translated by 谷歌翻译

Multi-Instance Training for Question Answering Across Table and Linked Text

Vishwajeet Kumar , Saneem Chemmengath , Yash Gupta , Jaydeep Sen , Samarth Bharadwaj , Soumen Chakrabarti

分类：自然语言处理 | 人工智能

2021-12-14

使用来自表格（TableQA）的信息回答自然语言问题是最近的兴趣。在许多应用程序中，表未孤立，但嵌入到非结构化文本中。通常，通过将其部分与表格单元格内容或非结构化文本跨度匹配，并从任一源中提取答案来最佳地回答问题。这导致了HybridQA数据集引入的TextableQA问题的新空间。现有的表格表示对基于变换器的阅读理解（RC）架构的适应性未通过单个系统解决两个表示的不同模式。培训此类系统因对遥远监督的需求而进一步挑战。为了降低认知负担，培训实例通常包括问题和答案，后者匹配多个表行和文本段。这导致嘈杂的多实例培训制度不仅涉及表的行，而且涵盖了链接文本的跨度。我们通过提出Mitqa来回应这些挑战，这是一个新的TextableQA系统，明确地模拟了表行选择和文本跨度选择的不同但密切相关的概率空间。与最近的基线相比，我们的实验表明了我们的方法的优越性。该方法目前在HybridQA排行榜的顶部，并进行了一个试验集，在以前公布的结果上实现了对em和f1的21％的绝对改善。

translated by 谷歌翻译

Knowledge Base Completion: Baseline strikes back (Again)

Prachi Jain , Sushant Rathi , Mausam , Soumen Chakrabarti

分类：机器学习 | 人工智能

2020-05-02

知识库完成（KBC）最近是一个非常活跃的领域。最近的一些KBCPAPER提出了建筑变化，新的培训方法甚至新的配方。KBC系统通常在标准基准数据集上进行评估：FB15K，FB15K-237，WN18，WN18RR和Yago3-10。大多数现有方法在这些数据集中为每个正实例训练少量的负样本，以节省计算成本。本文讨论了最近的发展如何使我们能够使用所有可用的负样本进行培训。我们表明，使用所有可用的负样本进行培训时，复杂的复合物在所有数据集上都具有近乎最先进的性能。我们称这种方法为复杂V2。我们还强调了最近在文献中提出的各种乘法KBC方法如何受益于这种训练制度，并且在大多数数据集上的性能方面都无法区分。根据这些发现，我们的工作要求重新评估其个人价值。

translated by 谷歌翻译

Numerical evidence against advantage with quantum fidelity kernels on classical data

Lucas Slattery , Ruslan Shaydulin , Shouvanik Chakrabarti , Marco Pistoia , Sami Khairy , Stefan M. Wild

分类：机器学习

2022-11-29

Quantum machine learning techniques are commonly considered one of the most promising candidates for demonstrating practical quantum advantage. In particular, quantum kernel methods have been demonstrated to be able to learn certain classically intractable functions efficiently if the kernel is well-aligned with the target function. In the more general case, quantum kernels are known to suffer from exponential "flattening" of the spectrum as the number of qubits grows, preventing generalization and necessitating the control of the inductive bias by hyperparameters. We show that the general-purpose hyperparameter tuning techniques proposed to improve the generalization of quantum kernels lead to the kernel becoming well-approximated by a classical kernel, removing the possibility of quantum advantage. We provide extensive numerical evidence for this phenomenon utilizing multiple previously studied quantum feature maps and both synthetic and real data. Our results show that unless novel techniques are developed to control the inductive bias of quantum kernels, they are unlikely to provide a quantum advantage on classical data.

translated by 谷歌翻译

RadFormer: Transformers with Global-Local Attention for Interpretable and Accurate Gallbladder Cancer Detection

Soumen Basu , Mayank Gupta , Pratyaksha Rana , Pankaj Gupta , Chetan Arora

分类：计算机视觉

2022-11-09

We propose a novel deep neural network architecture to learn interpretable representation for medical image analysis. Our architecture generates a global attention for region of interest, and then learns bag of words style deep feature embeddings with local attention. The global, and local feature maps are combined using a contemporary transformer architecture for highly accurate Gallbladder Cancer (GBC) detection from Ultrasound (USG) images. Our experiments indicate that the detection accuracy of our model beats even human radiologists, and advocates its use as the second reader for GBC diagnosis. Bag of words embeddings allow our model to be probed for generating interpretable explanations for GBC detection consistent with the ones reported in medical literature. We show that the proposed model not only helps understand decisions of neural network models but also aids in discovery of new visual features relevant to the diagnosis of GBC. Source-code and model will be available at https://github.com/sbasu276/RadFormer

translated by 谷歌翻译

Towards Adversarial Purification using Denoising AutoEncoders

Dvij Kalaria , Aritra Hazra , Partha Pratim Chakrabarti

分类：机器学习

2022-08-29

随着图像识别中深度学习模型的快速发展和使用的增加，安全成为其在安全至关重要系统中的部署的主要关注点。由于深度学习模型的准确性和鲁棒性主要归因于训练样本的纯度，因此，深度学习体系结构通常容易受到对抗性攻击的影响。对抗性攻击通常是通过对正常图像的微妙扰动而获得的，正常图像对人类最不可感知，但可能会严重混淆最新的机器学习模型。我们提出了一个名为Apudae的框架，利用DeNoing AutoCoders（DAES）通过以自适应方式使用这些样品来纯化这些样本，从而提高了已攻击目标分类器网络的分类准确性。我们还展示了如何自适应地使用DAE，而不是直接使用它们，而是进一步提高分类精度，并且更强大，可以设计自适应攻击以欺骗它们。我们在MNIST，CIFAR-10，Imagenet数据集上展示了我们的结果，并展示了我们的框架（Apudae）如何在净化对手方面提供可比性和在大多数情况下的基线方法。我们还设计了专门设计的自适应攻击，以攻击我们的净化模型，并展示我们的防御方式如何强大。

translated by 谷歌翻译

Sequence Prediction Under Missing Data : An RNN Approach Without Imputation

Soumen Pachal , Avinash Achar

分类：机器学习 | 人工智能

2022-08-18

一般的ML应用程序中缺少数据方案非常常见，时间序列/序列应用也不例外。本文涉及基于新的复发神经网络（RNN）解决方案，用于丢失数据下的序列预测。我们的方法与所有现有方法不同。它试图直接编码数据中的丢失模式，而无需在模型构建之前或期间尝试将数据归为数据。我们的编码是无损的，并实现了压缩。它可以用于序列分类和预测。在存在可能的外源输入的情况下，我们将重点放在多步预测的一般背景下进行预测。特别是，我们为此提出了编码器码头（SEQ2SEQ）RNN的新型变体。这里的编码器采用上述模式编码，而在具有不同结构的解码器中，多个变体是可行的。我们通过对单个和多个序列（实际）数据集的多个实验来证明我们提出的体系结构的实用性。我们考虑两种情况，其中（i）数据自然缺少，并且（ii）数据被合成掩盖。

translated by 谷歌翻译

An Adjustable Farthest Point Sampling Method for Approximately-sorted Point Cloud Data

Jingtao Li , Jian Zhou , Yan Xiong , Xing Chen , Chaitali Chakrabarti

分类：计算机视觉

2022-08-18

采样是原始点云数据处理的重要组成部分，例如在流行的PointNet ++方案中。最远的点采样（FPS）是最流行的采样方案之一，最远的点采样（FPS）是最远的点并执行距离更新。不幸的是，它的效率低，并且可能成为点云应用的瓶颈。我们提出了由M参数化的可调节FPS（AFP），以积极地降低FPS的复杂性，而不会损害采样性能。具体而言，它将原始点云分为M小点云，并同时将样品M点分为M点。它利用了大约分类点云数据的尺寸局部性，以最大程度地减少其性能降解。 AFPS方法可以在原始FPS上实现22至30倍的速度。此外，我们提出了最近的点距离级别（NPDU）方法，以将距离更新数限制为常数数字。 AFPS方法上的NPDU组合可以在具有2K-32K点的点云上实现34-280X的加速，其算法性能与原始FPS相当。例如，对于Shapenet部件分割任务，它可以达到0.8490实例平均MIOU（联合平均交叉点），与原始FPS相比，它仅下降0.0035。

translated by 谷歌翻译

Resisting Adversarial Attacks in Deep Neural Networks using Diverse Decision Boundaries

Manaar Alam , Shubhajit Datta , Debdeep Mukhopadhyay , Arijit Mondal , Partha Pratim Chakrabarti

分类：机器学习 | 计算机视觉

2022-08-18

深度学习（DL）系统的安全性是一个极为重要的研究领域，因为它们正在部署在多个应用程序中，因为它们不断改善，以解决具有挑战性的任务。尽管有压倒性的承诺，但深度学习系统容易受到制作的对抗性例子的影响，这可能是人眼无法察觉的，但可能会导致模型错误分类。对基于整体技术的对抗性扰动的保护已被证明很容易受到更强大的对手的影响，或者证明缺乏端到端评估。在本文中，我们试图开发一种新的基于整体的解决方案，该解决方案构建具有不同决策边界的防御者模型相对于原始模型。通过（1）通过一种称为拆分和剃须的方法转换输入的分类器的合奏，以及（2）通过一种称为对比度功能的方法限制重要特征，显示出相对于相对于不同的梯度对抗性攻击，这减少了将对抗性示例从原始示例转移到针对同一类的防御者模型的机会。我们使用标准图像分类数据集（即MNIST，CIFAR-10和CIFAR-100）进行了广泛的实验，以实现最新的对抗攻击，以证明基于合奏的防御的鲁棒性。我们还在存在更强大的对手的情况下评估稳健性，该对手同时靶向合奏中的所有模型。已经提供了整体假阳性和误报的结果，以估计提出的方法的总体性能。

translated by 谷歌翻译

Adaptive Edge Offloading for Image Classification Under Rate Limit

Jiaming Qiu , Ruiqi Wang , Ayan Chakrabarti , Roch Guerin , Chenyang Lu

分类：机器学习

2022-07-31

本文考虑了使用嵌入式设备来获取和分类图像的设置。由于计算能力有限，嵌入式设备依赖于具有不平衡精度的简约分类模型。当认为本地分类不准确时，设备可以决定使用更准确但资源密集型的模型将图像卸载到边缘服务器。但是，资源限制（例如，网络带宽）需要调节这种传输，以避免交通拥堵和高延迟。当传输调节是通过令牌桶时，该论文调查了此卸载问题，该机制通常用于此类目的。目的是设计一种轻巧的在线卸载策略，该策略在令牌存储桶的限制下优化了特定于应用程序的指标（例如，分类精度）。该论文制定了基于深Q网络（DQN）的政策，并证明了其功效和在嵌入式设备上部署的可行性。值得注意的是，该策略可以处理复杂的输入模式，包括图像到达中的相关性和分类精度。评估是通过使用来自Imagenet图像分类基准生成的合成痕迹对局部测试床进行图像分类进行的。这项工作的实施可在https://github.com/qiujiaming315/edgeml-dqn上获得。

translated by 谷歌翻译